reinforcement learning

132 статей

1ч 33м
♟ Брайан Ю: «Как мы учим компьютеры играть и думать»
CS50 · 09.06 · 12,1 тыс. просм.
45 мин
🚀 Опыт Cursor и Fireworks: распределенная инфраструктура для RL-обучения Composer 2
Sequoia Capital · 26.05 · 28,2 тыс. просм.
1ч 13м
🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic
Stanford Online · 09.03 · 561 просм.
1ч 13м
Теория игр: Minimax, Alpha-Beta и поиск оптимальной стратегии
Stanford Online · 09.03 · 691 просм.
1ч 18м
🤖 От случайного блуждания до Q-Learning: как ИИ учится на своих ошибках
Stanford Online · 09.03 · 811 просм.
20 мин
🧠 Вес Рот о Grok 4.20: «Четыре агента спорят друг с другом перед ответом»
Wes Roth · 17.02 · 76,5 тыс. просм.
1ч 22м
🤖 Филип Исола: «Поиск — это новый двигатель глубокого обучения»
MIT OpenCourseWare · 11.02 · 2,1 тыс. просм.
1ч 12м
DREAM: как научить ИИ исследовать и обучаться эффективнее
Stanford Online · 08.12.25 · 2,3 тыс. просм.
1ч 09м
🧠 Как Meta-RL позволяет агентам адаптироваться к новым задачам „на лету“
Stanford Online · 08.12.25 · 2,5 тыс. просм.
1ч 09м
🏗 Stanford CS224R: Как иерархический ИИ решает задачи с длинным горизонтом
Stanford Online · 08.12.25 · 2,9 тыс. просм.
50 мин
Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»
Stanford Online · 08.12.25 · 3,9 тыс. просм.
1ч 09м
⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением
Stanford Online · 08.12.25 · 7,5 тыс. просм.
1ч 07м
🤖 Имитационное обучение: почему простого копирования действий недостаточно
Stanford Online · 08.12.25 · 19,1 тыс. просм.
1ч 03м
🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»
Stanford Online · 08.12.25 · 10,5 тыс. просм.
49 мин
⚖ Лекция в Стэнфорде: развитие интеллекта роботов через RL
Stanford Online · 08.12.25 · 10,3 тыс. просм.
1ч 16м
🧠 Джонатан Сиддарт из Turing: почему 99% интеллектуального труда будет автоматизировано, а традиционный SaaS исчезнет
20VC (Harry Stebbings) · 01.12.25 · 19,6 тыс. просм.
18 мин
🎓 Стэнфордский ИИ-путеводитель: как выбрать подходящие курсы и построить карьеру в Deep Learning
Stanford Online · 10.11.25 · 10,4 тыс. просм.
58 мин
🧠 Шеф по ИИ в Cohere: почему законы масштабирования выстоят, а термин «экзистенциальный риск» пора запретить
20VC (Harry Stebbings) · 03.11.25 · 11,7 тыс. просм.
58 мин
🧠 Джоэль Пино из Cohere: почему законы масштабирования работают и как ИИ повысит продуктивность в 10 раз
20VC (Harry Stebbings) · 03.11.25 · 11,7 тыс. просм.
1ч 03м
🤖 Пирамида данных для манипуляций: как Stanford обучает роботов сложному поведению
Stanford Online · 31.10.25 · 3,5 тыс. просм.
40 мин
🧬 Уэс Рот и Дилан: «ИИ помогает нам понять природу сознания»
Wes Roth · 27.10.25 · 29,8 тыс. просм.
1ч 11м
💻 Марк Андриссен и Амджад Масад: «Английский — это новый язык программирования»
a16z (Andreessen Horowitz) · 23.10.25 · 44,5 тыс. просм.
1ч 30м
📉 Натан Лабенц: «Худшая ошибка — недооценить, как далеко зайдет ИИ»
a16z (Andreessen Horowitz) · 14.10.25 · 11,4 тыс. просм.
55 мин
🛠 Как ИИ-агенты меняют программирование: взгляд экспертов из Anthropic и Стэнфорда
Stanford Online · 01.10.25 · 4,8 тыс. просм.
1ч 19м
💻 Мария Ша о будущем программирования и обучении нейросетей
Wes Roth · 30.09.25 · 11,4 тыс. просм.
54 мин
🚀 Эван Рейзер (Poolside): «Обучение на исполнении кода — это путь к созданию AGI»
Eye on AI · 24.09.25 · 766 просм.
29 мин
🚀 Почему Grok 4 Fast в 47 раз дешевле конкурентов: разбор стратегии xAI
Wes Roth · 20.09.25 · 61,2 тыс. просм.
43 мин
🚀 Картик из Sierra AI о будущем агентных систем: «Агенты должны учиться через чтение»
Greylock · 22.07.25 · 2 тыс. просм.
50 мин
🤝 Скотт Ву (Cognition) о сделке с Windsurf и будущем ИИ-агентов
20VC (Harry Stebbings) · 18.07.25 · 24,4 тыс. просм.
2ч 54м
🤖 Восемь лет до сингулярности: как ИИ построит «Потемкинскую деревню»
80,000 Hours · 08.07.25 · 43,3 тыс. просм.